量子位 05-10 07:08

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件

📌 一句话：OpenAI研究员翁家翌提出用Python代码直接定义AI决策策略，颠覆传统"训练-更新参数"的强化学习范式。

强化学习一直是AI领域最耗算力的方向之一，传统方法需要数百万次试错才能学会一个任务。翁家翌是OpenAI决策智能团队核心成员，此前在World Models等方向有重要贡献。

这项研究真正厉害的地方不是技术细节，而是思维转换——把"训练AI"变成"教AI写代码"。与其让AI从零摸索，不如直接告诉它规则。这也意味着AI开发从玄学调参走向工程化，未来可能像写业务代码一样写AI决策。程序员们，准备好迎接新一轮职业危机了吗？

📡 来源：量子位

📖 原文链接